iT邦幫忙

2025 iThome 鐵人賽

DAY 1
0
生成式 AI

VLM系列 第 1

Day 1 - 什麼是VLM

  • 分享至 

  • xImage
  •  

視覺語言模型(Vision Language Model, VLM) 是融合了電腦視覺(Computer Vision)和自然語言處理 (NLP) 演算法的人工智慧(AI)模型。
VLM也是一種生成式模型,但與僅能處理文字資料的大型語言模型(LLM)不同,VLM將LLM的處理文字的能力擴展到視覺領域,使用者輸入可以是圖像或文字,而AI系統能夠「看懂」圖像並「理解」文字指令,進而實現雙向的溝通與內容生成。

VLM 的應用場景,包括:

  • 圖像描述 (Image Captioning) :
  • 視覺問答 (Visual QA):輸入圖像或影片並根據使用者提出的文字問題,描述圖像中的情境或解釋其內容。
  • 文件理解 (Document Understanding):從文件的表格、圖表、資訊圖表、圖示或流程圖中提取內容。
  • 圖文對話 (Vision-Language Chat):不但可理解圖像內容,使用者可與AI系統進行多輪對話。
  • 光學字元識別 (Optical Character Recognition, OCR):辨識圖像中的文字,甚至處理複雜的文字情境。
  • 多模態推理 (Reasoning):結合圖表、表格、文件進行推理,以連貫且具邏輯的文字進行回應,甚至提供相關分析或建議。。
  • 物件偵測 (Object Detection):在圖像中識別並定位物件。
  • 分割 (Segmentation):將圖像劃分為具有語義意義的區域。
  • 定位 (Grounding):返回圖片中實體的座標、框、遮罩。

AI 若要「理解世界」,只有文字是不夠的,還需要感知能力,電腦視覺就像是 AI 的「眼睛」,透過影像與影片資料,讓AI能辨識人臉、物體、文字、場景,沒有視覺,AI 在許多真實場景中的應用會受到極大限制,相較於目前已相對成熟及應用廣泛LLM,例如我們熟知的ChatGPT、Gemini等,VLM 仍在發展階段,且由於要處理的影像資料較複雜,需要的資源也較高,尚有許多挑戰,但成長非常快速,已持續發展出許多模型,相信未來當它更精準、更即時,VLM會因為在跨模態的能力,使AI有更多元的應用。

接下來的30天,就和我一起來瞭解 VLM 的技術原理、測試各家模型及實作。


系列文
VLM1
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言